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Tema 6. Segmentación y Paralelismo 



Introducción 



Técnicas Básicas en el Diseño de Procesadores (¡ya vistas!): 

■ Memorización 

S Memoria Cache 
S TLB 

S Predicción vía 

■ Concurrencia 

• Segmentación 

S Cache segmentada 

S Escrituras segmentadas 

S SDRAM 

• Paralelismo 

S Bancos DDR 

S Cache multibanco 

S RAIDs 




Procesador Secuencial 



Las instrucciones se ejecutan de forma secuencial. 

Las instrucciones pueden tener tiempos de ejecución diferentes, dependiendo de su 
complejidad: 



Rl <r- M[R2-24] 



R4 <r- R9 + Rl 



R5 <r- R12 + 4 



M[R6] <r- R5 



BEQ R5, $4 



F D/L 



M W 



F D/L A W 



F D/L A W 



F D/L 



M 



F D/L cond 



Banco de 
Registros 



ALU 



n 



data 



Memoria 
Instrucciones h 
Datos 
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Procesadores Segmentados 




Objetivo: ejecutar 1 instrucción por ciclo, CPI = 1. 

Dificultades para alcanzar este objetivo 

• Los recursos hardware disponibles 

• Respetar la semántica del Lenguaje máquina. 

Para simplificar la segmentación se utiliza un LM tipo RISC 



Aritméticas, 


Rk <r- Ri + Rj 














lógicas y 


Rk <- Ri - Rj 


Fetch 


Decode 


Read 


ALU 


Write 




comparación 


Rk <r- Ri & Rj 














Memoria 


Rk<-M[Rj+despl] 


Fetch 


Decode 


Read 


<S> 


MEM 


Write 




M[Rj+despl] <- Rk 


Fetch 


Decode 


Read 


<S> 


MEM 






BEQ Ri, $tag 
BNEQ Ri, $tag 














Salto 


Fetch 


Decode 


Read 


Cond 





















Para simplificar el hardware, se busca que todas las instrucciones usen la misma segmentación: 



F 


D/L 


A 


M 


W 
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Procesadores Segmentados 



Procesador segmentado en 5 etapas 



d/l 



M 



w 



PC 



T 



MI 



Ed BR 



Rd 



EXTSIG 
Despla 



Lb 



EsReg 
Rb 

Ra La 



reloj 



CodOp 



Dec CoOp 



ALU 



Dec alu 



MD 



T 



— ► 
— ► 
— ► 



DecMem 



MUXImp&CP 



Todos los registros y elementos de almacenamiento se actualizan en el flanco ascendente de reloj 
Para ver cuando se usa un elemento hay que observar sus conexiones, no su ubicación. 
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Procesadores Segmentados 



Ejecución segmentada 





i 


2 


3 


4 


5 


6 


7 


8 


9 


Rl <r- M[R2-24] 


F 


D/L 


A 


M 


w 










R4 <- R9 + RIO 




F 


D/L 


A 


M 


w 


R5 <r- R12 + Rll 




F 


D/L 


A 


M 


w 


R6 <- R13 + R14 




F 


D/L 


A 


M 


w 


R7 <r- R18 + R19 




F 


D/L 


A 


M 


w 



Las instrucciones (datos + control) se mueven por el pipeline. 

Al inicio de ciclo, todas las etapas empiezan a funcionar con los datos que hay en los registros de desacoplo 
en la entrada de la etapa. 

Al final de ciclo, las señales de salida de cada etapa se almacena en los registros de desacoplo. 

En un ciclo determinado se está ejecutando una instrucción diferente en cada una de las etapas. 

Prácticamente, con el hardware necesario para ejecutar 1 instrucción, estamos ejecutando 
concurrentemente 5 instrucciones independientes. 
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Procesadores Segmentados 



Límites a la segmentación 
■ Riesgos de Datos 





i 


2 


3 


4 


5 

w 


6 


7 


l 1 : Rl <- M[R2+X] 


F 


D/L 


A 








I 2 : R4 <r- R9 + Rl 




F 


D/L 


A 


M 


w 


Riesgos de Control 




i 


2 


3 


4 


5 


6 


7 


I 1 : BEQ Rl, $4 


F 


D/L 


A 


M 


w 


I 2 : R4 <- R9 + RIO 




F 


D/L 


A 


M 


w 


I 3 : R5 <- R12 + Rll 




F 


D/L 


A 


M 


w 



La instrucción Ij calcula Rl y es utilizado en la 
instrucción I 2 . Ii escribe Rl en el ciclo 5, 1 2 
lee el registro Rl en el ciclo 3 ^> I 2 Ice un 
valor incorrecto. 



La instrucción I x evalúa la condición de salto 
en el ciclo 3 (etapa A). Hasta ese ciclo no 
sabemos si el salto será efectivo. Si el salto es 
efectivo =^> Se ha \r\lc\ado la ejecución de 2 
instrucciones erróneamente (I 2 e I 3 ). 



Riesgos Estructurales 

• Se producen cuando un único recurso se intenta utilizar por 2 instrucciones diferentes. 

• El procesador segmentado que hemos presentado está libre de riesgos estructurales: 

S El Banco de Registros permite 2 lecturas y 1 escritura en el mismo ciclo 

S Dispone de Memorias independientes para instrucciones (MI) y datos (MD). 



9/42 



Tema 6. Segmentación y Paralelismo 



Procesadores Segmentados 




Los procesadores son más complicados 

■ No todas las instrucciones han de tener las mismas etapas 

• Operaciones complejas: multiplicación. 

• No siempre es fácil segmentar una operación: división. 

• Aritmética en Coma Flotante. 

■ Instrucciones con tiempo de ejecución variable 

• Accesos a Memoria: con fallo o acierto en cache (diferentes niveles). 

■ Gestión de Interrupciones y Excepciones 



— & 
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Procesadores Superescalares 



Objetivo CPI < 1 

Dispone de múltiples Unidades Funcionales 

Permite iniciar más de una instrucción (u 
operación) por ciclo 

Sigue siendo un procesador segmentado. 

Las instrucciones pueden tener tiempos de 
ejecución diferentes. 

La mayoría de los procesadores de propósito 
general actuales son superescalares. 
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code Decoder Decoder Decoder Decoder 
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7+ Entry uop Buffer 



Shared Bus 
Interface 
Unit 



Register Alias Table 
and Allocator 



Shared 
L2 Cache 
(16 way) 



96 Entry Reorder Buffer (ROB) 



Retirement Register File 
(Program Visible State) 



256 Entry 
L2 DTLB 



32 Entry Reservation Station 



Porto 



SSE 
Shuffle 
Al U 
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FMUL 
FDIV 
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_£ 



SSE 
Shuffle 
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Memory Ordering Buffer 
(MOB) 



Internal Results Bus 



Intel Core 2 Architecture 



32 KB Dual Ported Data Cache 
(8 way) 



16 Entry 
DTLB 
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Procesadores Superescalares OoO 



Objetivo CPI < 1 

Muchos procesadores superescalares permiten 
la ejecución fuera de orden (OoO Processors, 
Out of Order Processors). 

Las instrucciones se leen en orden, pero pueden 
ejecutarse en desorden. 

Las instrucciones se bloquean si sus operandos 
no están disponibles. 

Las instrucciones inician su ejecución cuando 
tiene sus operandos disponibles y la 
correspondiente U.F. está libre. 

La mayoría de los procesadores de propósito 
general actuales son superescalares con 
ejecución fuera de orden. 



128 Entry 


32 KB Instruction Cache 


ITLB 


(8 way) 



Instruction 
Fetch Unit 



32 Byte Pre-Decode, 
Fetch Buffer 



18 Entry 
Instruction Queue 



Complex Simple Simple Simple 
Decoder Decoder Decoder Decoder 



7+ Entry uop Buffer 



Shared Bus 
Interface 
Unit 



Register Alias Table 
and Allocator 



Shared 
L2 Cache 
(16 way) 



96 Entry Reorder Buffer (ROB) 



Retirement Register File 
(Program Visible State) 



256 Entry 
L2 DTLB 



32 Entry Reservation Station 
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Shuffle 
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128 Bit 
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FDIV 
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Shuffle 
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Internal Results Bus 
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Memory Ordering Buffer 
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VLIW 



VLIW: Very Long Instruction Word (Arquitecturas con tamaño de instrucción muy grande) 

■ Objetivo: explotar ILP (Instruction Level Parallelism), CPI < 1. 

■ Una instrucción especifica múltiples operaciones independientes 

■ Cada operación se ejecuta en una unidad funcional predeterminada Memoria de instrucciones 

■ La planificación de las instrucciones es estática: lililí 

r i 1 1 1 1 1 

realizada por el compilador 1 

■ La planificación estática permite usar menos hardware I 
de control y una arquitectura más simple: 



• Mayor frecuencia 

• Menor consumo 

• Menor coste 

• Más espacio para recursos (registros, UFs, 
caches, ...) 

• Mayor facilidad de verificación 

El procesador sigue estando segmentado. 



Instrucción 



ALU1 



ALU2 



FP 



L/S 



Of 


Di 


OI 


32 


OI 


33 


op4 


op5 















BR 



Banco de registros 



Un porcentaje muy grande de los procesadores que se fabrican son embedded y de éstos 
muchos son VLIW. 
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VLIW vs Superescalar 



VLIW 

■ El compilador decide cuándo y dónde se 
ejecuta una operación 

Memoria de instrucciones 



Instrucción 



ALU1 



ALU2 



FP 



opl 


op2 


op3 


op4 


op5 















L/S 



BR 



Banco de registros 



Superescalar 

■ El hardware decide 



Memoria de 
D instrucciones 



Renombre de registros 
Detección de dependencias 
Planificación de instrucciones 



ALU1 



ALU2 



FP 



L/S 



BR 



Banco de registros 
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VUW vs Superescalar 



Software 

Programa j 



Front-end 
Optimizaciones' 

I 

Análisis de 
dependencias 

I 

Asignación de 

recursos 
I 



compilador 



Hardware 



Superescalar 



VLIW 



Análisis de 
dependencias 

1 

Asignación de 
recursos 



11 



CPU 



Ejecución 
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Resumiendo ILP 
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CPI = 3-5 
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Objetivo CPI = 1 
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Superescalar 
Objetivo CPI < 1 
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VLIW 

Objetivo CPI < 1 
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SIMD (Single Instruction Múltiple Data) 




1 única instrucción que permite operar con múltiples datos del mismo tipo. 



%XITiml 127:112 



%XITim3 127:112 



paddw %xmml , %xmm3 



%xmm3 



15:0 



Especialmente pensadas para aplicaciones multimedia: procesado de imagen, sonido, ... 

La mayoría de los procesadores actuales tienen extensiones SIMD. En los procesadores x86 
están disponibles desde hace años: 

• MMX, MultiMedia extensión, Múltiple Math extensión, or Matrix Math extensión, introducido en 
1997 en los Pentium MMX 

• SSE, Streaming SIMD Extensions, introducido en 1999 en los Pentium III 

• SSE2, introducido en 2001 en los Pentium 4 

• SSE3, introducido en 2004 en los Pentium 4 Prescott (AMD lo amplió en 2005 en el Athlon) 

• SSE4 , introducido en 2007 en los Intel Core y AMD K10 

• SSE5, anunciado por AMD en 2007, previsto para AMD Bulldozer en 2011 

• AVX, Advanced Vector eXtensions, anunciado por Intel en 2008, en el Sandy Bridge de 2011 
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Procesadores Vectoriales 



Los primeros supercomputadores (desde los años 70 hasta mediados de los 90) fueron 
procesadores vectoriales. Ahora obsoletos. 

Orientados al cálculo científico en coma flotante 

• Misma operación sobre distintos datos (vectores o matrices) 

• Muchas operaciones independientes 

En un procesador de propósito general las aplicaciones científicas tienen un rendimiento 
bastante limitado: 



for (i=0; i<128; i++) 
A[i] = B[i]+C[i]; 



i 



Desenrollar 2 



for (i=0; i<128; i+=2) { 
A[i] = B[i]+C[i] ; 
A[i+1]= B[i+1]+C[i+1] ; 

} 



for: Fl <r- B[R1] 
F2 <- C[R1] 
F8 <r- F2+F1 
A[R1] <- F8 
Rl <r- Rl+8 
R9 <r- R9-1 
BNE R9, for 



for: Fl <r- B[R1] 
F2 <- C[R1] 
F3 <r- B[Rl+8] 
F4 <- C[Rl+8] 
F8 <- F2+F1 
F9 <- F3+F4 
A[R1] <- F8 
A[Rl+8] <- F8 
Rl <r- Rl+16 
R9 <r- R9-2 
BNE R9, for 
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Procesadores Vectoriales 




Los procesadores vectoriales disponen de 
instrucciones que operan con vectores de 
números en coma flotante: 

• Usan Registros Vectoriales de tamaño fijo 
(MVL , p.e. 128 elementos). 



for (i=0; i<128; i++) 
A[i] = B[i]+C[i] ; 



i 



VI <- 


B[R1] 


V2 <- 


C[R1] 


V3 <r- 


V2+V1 


A[R1] 


<- V3 



Operaciones independientes. Permite un 
elevado grado de segmentación de las 
Unidades Funcionales y tener tiempos de 
ciclo muy pequeños. 

Vi V2 V3 Vn Banco de Registros 
Vectoriales 



T T T 



S £ S ~ V3 <- V2+V1 



UF+ 



0123456789 10 11 



... 0 



Latericia 1er cálculo 1 resultado por ciclo 

Cronograma de ejecución de una instrucción vectorial 
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Procesadores Vectoriales 



Acceso a datos muy eficiente. Acceso a memoria con patrones conocidos (localidad espacial). 
Acceso a registros vectoriales (localidad temporal). 

La memoria principal está especialmente organizada para soportar accesos a memoria con 
patrones regulares: acceso a elementos consecutivos en memoria (stride 1); acceso a 
elementos con distancia constante entre ellos (stride P). 

Los datos que utilizan las U.F. Vectoriales no pasan por Memoria Cache. 

Se reduce la sobrecarga debida al control de los bucles y los saltos condicionales. 

El rendimiento de estos procesadores está limitado por la fracción de código que se puede 
vectorizar (Ley de Amdahl). 

El compilador (vectorizador) es un elemento fundamental del sistema. 



for (i=0; i<N; i++) 
A[i]=B[i]+C[i] ; 



for (ii=0; ii<N; ii+=MVL) 

for (i=ii; i<min (ii+MVL, N) ; i++) 
A[i]=B[i]+C[i] ; //N%MVL == 0 



for: VI <r- B[R1] ; loadV 
V2 <r- C[R1] ;loadV 
V3 <- V2+V1 ;addV 
A[R1] <- V3 ;storeV 
Rl <- R1+8*MVL 
R9 <r- R9-MVL 
BNE R9, for 
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Multithreading 



Fetch 



Cache I 



Decode 



Banco 
Registros 



UF1 



UF2 



UF3 



UF4 



L/S 



L/S 



Cache D 



Un procesador actual dispone de múltiples 
unidades funcionales. 

Se intenta iniciar P instrucciones/operaciones 
por ciclo. 

Los programas no siempre disponen de 
suficiente ILP. 

Una forma de aprovechar el hardware disponible 
es intentar ejecutar instrucciones de threads 
diferentes. 

Sólo es necesario multiplicar alguno de los 
elementos hardware: Fetch y Banco de 
Registros. Hay que mantener el estado de cada 
thread en ejecución. 

El SO ve tantas CPUs lógicas como estados puede 
mantener la CPU. ^-j. 
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Multithreading 




Thread 0 

a]EB 



BBB 
BBB 
BBB 

Thread 1 

a]BD 
c]BD 
BB 



BHD 



Block 
Multithreading 

3B@ 



Cache miss 



Cache miss 



Cache miss 



BBD 
HBD 
BBD 
BBB 
BBD 
BDD 
BBD 



Switch on Event 
Multithreading 

Se cambia de thread cuando 
se produce un evento de alta 
latencia (oculta la latencia). 



Interleaved 
Multithreading 



ABC 



A B 



^BD 
BBD 
BBD 
BBB 
BBB 
BBD 



Fine Grained Multithreading 

Se cambia de thread en cada 
ciclo. Puede haber múltiples 
threads activos. 



Simultaneous 
Multithreading 



ABC 



Aj [B_ 

BB 
BB 
BB 
BBB 

BBD 



H 



SMT (hyperthreading de 
Intel) 

Se lanzan instrucciones de 
diferentes threads 
simultáneamente. 
Encaja de forma natural con 
los superescalares. 
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Multiprocesadores 



Un multiprocesador es un computador que tiene N procesadores. 

En un mismo computador pueden ejecutarse varios threads pertenecientes a una misma 
aplicación o a aplicaciones independientes. 

Los sistemas multiprocesador pueden utilizarse para: 

• Ejecutar una aplicación paralela entre todos los elementos de proceso del computador. 
El objetivo es la velocidad: Supercomputación. 

• Ejecutar más aplicaciones por unidad de tiempo. 

El objetivo es el throughput: Servidores de aplicaciones. 

• O una mezcla de ambos. 
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Multiprocesadores: Organización 




Multiprocesadores con Memoria 
Compartida 





Memoria 












Red de Interconexión 


Pi 


p 2 p 


3 


Pn 



Multiprocesadores con Memoria 
Distribuida 



Red de Interconexión 



M 1 



M- 



IVU 



Pi 



Existe un único espacio de direcciones 
compartido por todos los procesadores. 

La red de interconexión permite a 
cualquier procesador acceder a cualquier 
posición de memoria. 



Los procesadores sólo pueden acceder a su 
memoria local. 

La red de interconexión permite a 
cualquier procesador comunicarse con 
cualquiera de los procesadores del sistema. 
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Multiprocesadores: Programación 



Modelo de variables compartidas 



Modelo de paso de mensajes 



Datos 



ABC 



ABC 



A = 2B 


> 


A = 2-B 




r s y nc 


C = 2A 




sync i — 




C = 2-A 


Operaciones 




Proceso 1 


Proceso 2 



Datos 



ABC 



A = 2-B 
C = 2-A 



Operaciones 



AB 



A = 2-B 
send(A) 



eceive(A) 
C = 2A 



Proceso 2 



Las operaciones se dividen en procesos. 

Los datos son compartidos por los 
procesos. 

Se requieren primitivas de sincronización: 
• Señalización y Acceso Exclusivo 



Las operaciones y los datos se 
descomponen en procesos. 

Los procesos sólo tienen acceso a directo a 
los datos privados (locales). 

Los datos no locales se acceden mediante 
intercambio de mensajes entre procesos. 
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Multiprocesadores: Programación 




Situación Ideal 

Código Secuencial 





f 


Compilador /Paralelizador 







Código Paralelo 

Este es el modelo de programación ideal. 
Sin embargo, la tecnología de compilación 
actual no permite obtener buenos 
rendimientos en los sistemas 
multiprocesadores. 



El modelo de programación y la 
organización 







Modelo de Programación 






Variables 
Compartidas 


Paso de Mensajes 




Memoria 


Combinación natural 
Poco Escalable 
Programación fácil 


Poco Escalable 


zación 


Compartida 


Programación difícil 


Organi 


Memoria 


Programación fácil 
Escalable 


Combinación natural 
Escalable 

Programación difícil 




Distribuida 


Implementación 
difícil 
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Multiprocesadores: Mejora de la Organización 



La red de interconexión aumenta la latencia con memoria. 

El uso de memorias cache locales de gran capacidad es imprescindible. 





Memoria 












Red de Interconexión 


Pi 


p 2 p 


3 


Pn 





Memoria 












Red de Interconexión 



MC 



MC 



MC 



MC 



El uso de memorias cache locales en un entorno de memoria compartida provoca la aparición 
de un problema que el hardware ha de resolver: COHERENCIA de MEMORIA. 

Un sistema de memoria es coherente si cualquier lectura de un dato devuelve el último valor 
escrito sobre esa posición de memoria. Existen 2 temas a tener en cuenta: 

• Coherencia 

• Consistencia 
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El Problema de la Coherencia de Memoria 



x=o 



Ply P2 leen x de MP 



Un sistema es coherente si cumple tres 
condiciones: 



Red de Interconexión 



X=0 



Pl 



x=o 



P2 



cache 



P3 



cache 



Pn 



X=0 



P2 modifica x en MC 



Red de Interconexión 



x=o 



Pl 



X=l 



P2 



31 
cache 



P3 



cache 



Pn 



X=0 



Pl lee un valor 
erróneo de x de MC 



Red de Interconexión 



X=0 



Pl 



X=l 



P2 



cache 



P3 



cache 



Pn 



M[x] 


<- V 


(Pi) 


Ninguna escritura en M[x] 








^> w = V 


| w ^~ 


M[x] 


(Pi) , 












M[x] 


<— V 


(Pi) 


Ninguna escritura en M[x] 






tiempo suficiente para que la 








escritura sea visible 


| w ^~ 


M[x] 


(Pj) . 


, =^> w = V 










M[x] 


<— VI 


(Pi) 






Todas las escrituras se ven en el 








mismo orden por todos los 


M[x] 


<— V2 


(Pj) 


procesadores (M[x] = vi, V2, V3). 








Nunca puede ocurrir que un 


M[x] 


<— V3 


(Pk) 


procesador vea : M[x] = vi, V3, V2 
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Redes de Interconexión 



Elemento fundamental en el rendimiento de un multiprocesador 

Bus Común Buses Múltiples 



M, 



M, 



1 1 1 



M, 
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p 
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3 


P 


N 



M 1 



Crossbar 



Bus Común 

• Barato 

• Ancho de banda bajo 
Crossbar 

• Caro (para muchos procesadores) 

• Ancho de banda alto 

Buses Múltiples 

• Compromiso entre bus común y crossbar. 



— & 

31/42 \fj¡T 
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Redes de Interconexión 




La red de interconexión también es fundamental en los multiprocesadores con memoria 
distribuida 



Bus Común 



nodo 



CPU 


router 










MP 


cache 





Redes de Acceso a Memoria Uniforme (UMA) 

•Cualquier pareja de nodos se comunican con 

igual coste de comunicación. 
•Redes poco escalables. 



Buses Múltiples 













































Pl 




p 2 




p 3 




Pn 



Pl 



Crossbar 
— • 
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Tema 6. Segmentación y Paralelismo 



Redes de Interconexión 



Los multiprocesadores con memoria distribuida pueden utilizar conexiones punto a punto. 



Línea 



Anillo 



Malla 





Redes de Acceso a Memoria No Uniforme (NUMA) 

• El coste de la comunicación entre dos nodos depende 
de la posición relativa de los nodos en la red. 

• Redes Escalables. 
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índice 




Introducción 

Paralelismo a Nivel de Instrucciones (ILP) 
Paralelismo a Nivel de Datos (DLP) 
Paralelismo a Nivel de Thread (TLP) 

Ejemplos Reales 

• Un procesador de propósito general 

• UnTV3D 

• Una GPU 

• Una consola 

• Supercomputador MareNostrum 
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IBM Power 7 



SMP interconnect 



1 ^4bl 

22b. 



PSI- 
JTAGFSI - 
I2C- 
VIDBus - 



C1 
core 
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Incu 



C1 
core 
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PBE 



C1 
core 



L2 



4MB L3 
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C1 
core 



L2 



4MB L3 
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MCO 



PowerBus 



psi a/d htm icp 



MC1 



NCU| 

4MB L3 



L2 



C1 
core 



NCU| 
4MB L3 



C1 
core 



NCU| 

4MB L3 



C1 
core 



NCU| 

4MB L3 



C1 
core 



| SEEPROM | 



%4 14 14 

E S 



M1A 

b 

"M1B 

2 

"M1C 

b 

"M1D 



|SMP interconnectl [SMP data oñly] [SMP mterconnect| 
ÍGXÍ1 |GXO| 



www.ibm.com 



Frecuencia: 3 - 4.25 GHz 

8 cores por chip, 4 SMT threads por core 

Ejecución fuera de orden 

12 U.F.s por core (2 L/S, 4 CF, 1 Vector, ...) 

Altivec Vector SIMD instructions 

32KB + 32KB Ll por core 

256 KB L2 por core 

32 MB L3 (eDRAM con ECC), compartida con 
protocolo de coherencia incluido (hasta 8 chips) 

2 controladores de memoria, 8 canales, 100 GB/s 

Todos los buses de comunicación protegidos con ECC 

Rendimiento de pico 

• 32,12 GFLOPS por core 

• 264.96 GFLOPS por chip 
Gestión muy eficiente del consumo 

• ON/OFF de los cores dinámicamente 

• Variación dinámica de la frecuencia por core 
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IBM Power 7 




Core 



L2 Cache 



ES 



Mem Ctrl 







Core 




L2 Cache 
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L3 Cache and Chip Interconnect 



L2 Cache 



Core 



L2 Cache 



Core 



ti 



,/lem Ctrl 



L2 Cache 



Core 



L2 Cache 



Core 



www.ibm.com 



— i 



DFU 




. IFU 
CRU/BRU 



LSU 





256KB L2 
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ST FLI7521 — > TV 3D 



21 Analog Y/C + /CVBS 
HDMl 1 HDMI2 HDMI3 Video Inputs Analog Video Out 



,1 I 1 



HDMI1.4a 
3:1 Mux Phy 



HDMl Rx 
w/HDCP 



| VDAC x2 | <— | Up sampler | <— | Video Pene | < 1 Compositor | 



AFE with 21 inputs, 
3 outputs. x4 ADC 



HDf.1l 
AudJo 



Analog Video Decoder 
with 
3DComb 



Video Input Select Mux 



RCLKForm 
ClockGen 



STCIock 
Generator 



Macro 
block to 
Ráster 



tí 



LVDSOut 
Quad Wide 



Main Video Processing 



FAROL! D) A 

DfDi CINEMA© 



GDP3 I 















Sharpeni 
Fiters 


'i 


8 
1 


2 


u 


CLUTs 



Compositor 
Main 



El ST40-300 es un 
superescalar que puede 
iniciar 2 instrucciones 
por ciclo + SIMD. 
El ST231 es un VLIW 
4-way (4 operaciones 
por instrucción) 



ST-Bus INTERCONNECT 



I FDMA I 



Audio 
PCM/SPDIF 
Players/Readers 



Audio DSP 
ST231 
450 MHz 



Audk) DSP 
ST231 
450 MHz 



Analog Audio 
WWDemod 
Audio: x1 SIF 
ADC,x1 ADC 18 bit, 
x6 PAC 24 bit 



fff 



2D GFX 
Blitter 



Ef.ll 
NAND Flash 
Serial Flash 



ST40-300 
450 MHz 

OS21 



ST40-300 
450 MHz 
Linux 



S/PDIF I2S Aux 5x 1x HP 3x 
out I2S L/R SIF out L7R 
3.1 in in out 



DVB-CI, 
DVB-CI+ 
MCARD 



DDR2/3 
CTL16bit 


DDR2/3 
CTL 32 bit 






16 1 32; 




DDR2/3 
1066 Mbps 
512Mb-2 Gb 


DDR2/3 
1066 Mbps 
512Mb-2 Gb 





SD/MMC 
Card 



Ethernet 
10/100 
MAC 



MPEG-2/H.264/ 
VCI/DiVX/AVS 
Video Decoder 



Transpon 
Stream 
Demux 



Transpon 
Front-End 



USB 2.0 
Host Ctrl 



USB 2.0 
PHY 



GP l/O 
PvVM .4 



r 1 T. TTTTT 



_TSx2 
Tuner 

-► TS 

in/out 
Cl/Mcard 



SD Card MII/RMll 



© STMicroelectronics 



Algunos de los elementos específicos también son CPUs. 
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ST FLI7521 -» TV 3D 




Hybrid 
Tuner 



IF 



STV03xx 

ATSC / DVB-T/C 
/ QAM 



TS 



CVBS 



3x 
HDMl 
Inputs 

YPbPr 



v y >r yr 



D3 



USB Ctrl + 1 
PHY embedded 



10/100 
MAC 



RJ45 



Múltiple /l 
'BS/YC VJ 



CVBS/ 
Dual SCART 

RGB 



coco 



FLI7512 

ATV/DTV 
H.264 SoC 



UART Links + LBADC 
Front panel swítches 
^ External coms interface (e.g. hotel TVs) 
Debug / code update 



SPDIF In 
SPDIFOut< 



*3x16-bit or 1x16+1x32-bit 
configuration options available 




Loudspeaker 
L/R Out 



(T^ Headphones 
^ Out 



© STMicroelectronics 
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AMD GPU 





www.amd.com 



AMD Radeon™ HD Serie 6970 

■ Multi-core 

■ Multi-thread 

■ VUW 

■ SIMD 

■ Frecuencia de la GPU: 880 MHz 

■ 2 GB de memoria GDDR5 

■ Frecuencia de memoria 1375 MHz 

■ 8 canales con memoria 

■ 176 GB/s de acho de banda de memoria 

■ 2,7 TFLOPs en simple precisión 

■ 683 GFLOPs es doble precisión 

■ 1536 elementos de cálculo 
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Cell, procesador gráfico de la PS3 



sxu 







LS I I LS I 
DMA DMA 



SPE 



ON-chip coherent bus (up to 96 bytes per cycle) 



PPE 



Power 
core 



Memory 
controller 



Bus interface 
controller 



Dual Rambus 
XDR 



Rambus 
FlexIO 






Multi-thread, Multi-core, Memoria Distribuida 

1 PPE (Power Processing Element) . CPU de propósito general. Encargado de distribuir la carga 
entre los SPEs y recoger los resultados. Es un PowerPC. 

8 SPE (Synergistic Processing Elements). Procesan las tareas que le encarga el PPE. La 
comunicación entre ellos es vía DMA. No disponen de Memoria cache. Sólo pueden acceder a 
su Memoria RAM Local. Dispone de unidades de cálculo vectorial del tipo SIMD. 
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Cell, procesador gráfico de la PS3 



• Arquitectura diseñada para grandes cargas de cálculo de 
aplicaciones digitales: películas, videojuegos y cálculo numérico. 

• Las tareas que corren en los SPEs han de estar vectorizadas 

• Toda la coordinación entre las tareas la ha de realizar el PPE. 

• Programar este procesador no es trivial, como tampoco lo era 
programar el Emotion Engine (procesador gráfico de la PS2). 

• PowerXCell es una variante del Cell. El PowerXCell 8i está 
disponible en los Servidores Blade QS22 de IBM. 

• El PowerXCell 8i a 3.2 GHz tiene una potencia de pico de 
204.8 GFLOPS en doble precisión. 

• El #7 del top500 (Nov-2010) utiliza PowerXCell 8i. 

• Los TV 3D de gama alta de Toshiba utilizan Cell. 

• Proyecto de STI (Sony, Toshiba, IBM), 400 ingenieros trabajando 
durante 4 años con un presupuesto de 2000 millones de €. 
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Supercomputador MareNostrum 
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